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基于 微 博 的 电影 首 映 周 票房 预测 建 模 


王 晓 耘 责 媛 史 玲玲 
(杭州 电子 科技 大 学 管理 学 院 ”杭州 310012) 


摘要 : 


【 目的 】 解决 现 有 的 票房 预测 模型 由 于 数据 受 限 等 因素 导致 的 无 法 实现 在 影片 上 映 前 进行 票房 预测 这 一 


问题 。 【方法 ] 在 获取 微 博 评论 的 基础 上 , 使 用 SVM 识别 出 消费 者 的 显 式 消费 意图 ， 即 强 正面 评论 ; 对 传统 的 分 
类 准则 进行 修正 , 构建 基于 HowNet 的 中 文 微 博 情感 词典 ， 进 而 定义 一 个 新 的 用 户 影响 力 特征 ; 使 用 BP 神经 网 
络 进行 票房 预测 。[ 结果 】 实 验 结果 表明 ,本文 建立 的 模型 能 够 较为 准确 地 对 电影 首 映 周 票房 进行 预测 。[ 局 限 】 


由 于 语 料 不 充分 , 本 文 构建 的 中 文 微 博 情感 词典 ， 可 能 会 无 法 在 所 有 的 电影 微 博 评论 中 表现 出 较 好 的 分 类 效果 ; 
此 外 也 没有 建立 一 个 能 够 在 电影 上 映 周期 内 动态 预测 票房 的 票房 预测 模型 。[ 结论 ] 该 模型 能 够 有 效 地 进行 首 映 


周 票房 预测 ， 具有 现实 的 可 行 意义 。 
关键 词 : 情感 词典 ”情感 分 类 首 映 周 票 房 预 测 
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1 3 引 


随 着 微 博 的 快速 发 展 , 不断 增加 的 在 线 评论 正在 
极 大 地 影响 着 传统 的 市 场 决策 ,使 得 文本 挖掘 成 为 商 
业界 与 学 术 界 共同 的 热点 话题 站。 而 其 中 将 微 博 与 传 
统 事件 预 测 相 结 合 的 研究 成 为 一 大 热点 门 。 如 Liu 等 中 
在 使 用 贝 叶 斯 分 类 器 对 博客 进行 情感 分 类 的 基础 上 进 
行 票房 预测 ， 预 测 结果 可 以 为 电影 上 上 映 期 间 的 银幕 分 
配 或 营销 支出 提供 数据 支持 。 由 于 电影 制作 和 营销 推 
广 和 需要 大 量 投资 义 有 极 高 的 风险 ， 因此 电影 产业 成 为 
预测 和 市 场 评估 的 重点 领域 “1 但 我 国电 影 行业 始终 
面临 着 由 于 票房 预测 方法 和 工具 缺失 导致 的 投资 者 无 
法 有 效 对 冲 投 资 风险 这 一 问题 。 事 实 上 ， 作 为 仅 次 于 
美国 和 日 本 的 全 球 第 三 大 电影 生产 国 , 我 国 目前 只 有 
极 少数 电影 投资 是 表 利 的 ，70% 的 国产 电影 基本 都 难 
以 回收 成 本 丫 , 微 博 作 为 娱乐 行业 的 影响 力 阵地 ,电影 
主演 发 布 的 每 一 条 和 电影 相关 的 微 博 都 能 够 引发 一 系 
列 评论 和 转发 进而 转化 为 相应 的 消费 行为 ， 如 董 成 鹏 


了 中 


在 2015 年 7 月 16 日 发 布 的 一 条 和 《煎饼 侠 》 相 关 的 
微 博 , 引发 了 3 179 条 转发 和 5 191 条 评论 。 同 时 用 户 
的 每 一 条 评论 所 汇聚 成 的 集体 智慧 ， 都 能 体现 出 电影 
主创 人 员 的 票房 导 召 力 ， 都 会 蝴蝶 效应 般 地 影响 实际 
票房 。 因 此 , 在 这 一 背景 下 利用 微 博 评论 进行 票房 预 
测 无 疑 对 电影 生产 商 来 说 具有 重大 的 现实 意义 。 


2 相关 研究 


2.1 基于 微 博 或 博客 的 票房 预测 

为 了 充分 挖掘 微 博 中 的 信息 进行 票房 预测 ， 国 内 
外 学 者 进行 各 种 探索 。 常 用 的 方法 是 利用 微 博 中 的 转 
发 数 、 粉 丝 数 、 评 论 情 感 作为 模型 的 输入 , 采用 情感 
自 回归 模型 、 神 经 网 络 或 SVM 等 进行 票房 预测 。 

张 间 等 所 将 节点 属性 分 为 动态 和 静态 两 类 ， 提 出 
基于 节点 属性 进行 信息 预测 的 AVN 模型 ， 并 使 用 BP 
神经 网 络 进 行 票房 预测 。 但 该 模型 对 情感 倾向 的 定义 
忽略 了 不 同 的 情感 对 票房 的 贡献 能 力 。Liu 等 中 首次 将 
博客 中 的 情感 看 成 是 一 系列 因素 共同 作用 的 结果 , 提 
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出 S-PLSA 模 型 ， 即 首先 从 博客 中 抽取 2 030 个 评价 词 ， 
并 且 使 用 这 些 词 出 现 的 频率 构建 特征 向 量 表示 每 一 篇 
博客 , 再 计算 情感 倾向 , 为 了 提高 预测 的 精度 ,引入 
历史 销量 构建 基于 情感 的 自 回 归 模 型 进行 票房 预测 。 
但 由 于 新 浪 微 博 是 短文 本 ,并 且 含 有 更 多 的 网 络 用 语 
以 及 表情 符号 ， 和 博客 的 长 文本 的 情感 分 析 存在 很 大 
的 差别 。Asur 等 (收集 了 24 部 影片 的 推 文 信息 , 使 用 
LingPipe 语言 分 析 包 进行 情感 分 类 ， 引 入 
average-tweet-rate 和 正 负极 性 模型 构建 线性 回归 模型 
进行 票房 预测 ,实验 结果 表明 , 引入 正 负极 性 模型 的 
效果 更 优 。 然 而 该 方法 存在 以 下 缺陷 : 该 文 基于 “一 部 
电影 的 正面 评论 多 于 负面 评论 , 则 该 电影 的 票房 可 能 
会 更 好 ”这 一 假设 , 但 在 粉丝 经 济 时 代 , 口碑 的 好 坏 和 
电影 票房 没有 直接 的 关系 ; 线性 回归 模型 中 引入 的 流 
行 度 , 忽略 了 不 同 的 情感 倾向 对 票房 的 贡献 度 不 一 样 
这 个 事实 ; 由 于 影响 票房 的 因素 很 多 , 使 用 简单 的 线 
性 回归 无 法 保证 模型 的 稳定 性 。Du 等 中 修正 了 Asur 
等 的 假设 , 认为 如 果 有 更 多 的 微 博 内 容 是 和 电影 票房 
增长 相关 ， 则 票房 会 更 好 ,进而 将 微 博 情感 分 为 三 类 ， 
引入 AS(Authority Score), 通过 三 种 方法 进行 票房 预测 ， 
结果 发 现 , 神经 网 络 的 预测 效果 最 好 。 但 该 模型 是 使 用 
第 一 周 和 第 二 周 的 历史 票房 数据 来 预测 第 三 周 的 数据 ， 
无 法 实现 对 电影 上 映 前 的 预测 ,同时 在 情感 分 类 中 忽 
略 了 领域 情感 词 以 及 表情 符号 等 对 情感 分 类 的 影响 。 
2.2 ” 首 映 周 票 房 预 测 

基于 微 博 或 博客 的 票房 预测 大 都 引入 了 历史 数 
据 ， 如 使 用 第 一 周 和 第 二 周 的 数据 进行 预测 。 然 而 , 在 
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电影 上 映 之 前 却 不 存在 相关 的 历史 数据 。 因 此 ,如何 
在 没有 历史 票房 数据 的 情况 下 进行 首 映 周 票房 预测 是 
一 个 巨大 的 挑战 。 一 种 预测 方法 是 利用 消费 者 的 观 影 
意愿 来 预测 票房 ,Eliashberg 等 (2 通过 问卷 调查 的 方式 
确定 用 户 的 观 影 意愿 ， 并 以 此 来 估计 总 观 影 数 和 票 
房 。 Shugan 等 "3 通过 收集 用 户 在 看 过 预告 片 之 后 的 观 
影 意愿 来 预测 观 影 意愿 对 票房 的 影响 。 结 果 发 现 , 观 
影 意愿 和 票房 之 间 的 相关 性 较 高 。 

上 述 关 于 票房 预测 相关 研究 , 要 么 是 使 用 历史 数 
据 进行 预测 ， 要 么 是 使 用 小 规模 问卷 调查 的 方式 来 搜 
集 用 户 的 观 影 意愿 。 但 如 何 利用 微 博 上 的 信息 所 汇聚 
成 的 集体 智慧 进行 首 映 周 票房 预测 并 为 后 续 周 的 票房 
预测 提供 数据 来 源 仍 存在 很 大 的 挑战 。 
通过 对 微 博 内 容 的 观察 , 发 现 电影 主 创 人 员 发 布 
的 微 博大 多 和 预告 片 、 电 影 海报 、 主 题 曲 相关 , 本 文 利 
用 这 些微 博 评论 中 的 情感 所 体现 出 的 观 影 意愿 进行 首 
映 周 的 票房 预测 。 因 此 本 文 结合 情感 分 析 和 神经 网 络 提 
出 一 种 基于 微 博 的 首 映 周 票房 预测 模型 。 该 模型 充分 利 
用 微 博 的 数量 和 情感 特征 , 通过 支持 向 量 机 分 类 出 含 
有 显 式 意图 的 评论 , 将 其 定义 为 强 正 面 评 论 , 并 在 对 传 
统 的 情感 分 类 准则 进行 修正 后 , 利用 构建 的 中 文 微 博 
情感 词典 对 剩余 评论 进行 情感 分 类 ,考虑 到 不 同 的 评 
论 情感 类 别 对 票房 的 不 同 贡献 能 力 ， 赋 予 情感 类 别 以 
不 同 的 权重 , 再 通过 BP 神经 网 络 进行 票房 预测 。 


3 ”基于 微 博 的 电影 首 映 周 票房 预测 
本 文 研究 框架 如 图 1 所 示 : 


模型 训练 票房 预测 
和 A 
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利用 微 博 情感 进行 首 映 周 票房 预测 分 为 6 个 步 又 : 

(1) 结合 相关 文献 以 及 实际 的 电影 市 场 情况 , 确 
定 影响 首 映 周 票房 的 因素 ; 

(2) 对 微 博 评论 数据 进行 预 处 理 ; 

(3) 利用 支持 向 量 机 从 评论 中 分 类 出 含有 显 式 消 
费 意图 的 强 正面 评论 ; 

(4) 构建 基于 HowNet 的 中 文 微 博 情 感 词典 ; 

(5) 对 剩余 评论 进行 分 词 和 情感 分 类 ; 

(6) 使 用 步骤 (1) 中 确定 的 票房 影响 因素 构建 预测 
模型 的 输入 ,进行 模型 的 训练 和 票房 预测 。 
3.1 首 映 周 票房 影响 因素 

微 博 作为 潜在 的 买 家 和 卖家 直接 沟通 的 平台 , 特别 
是 在 电影 上 映 前 , 电影 的 主创 人 员 和 粉丝 互动 时 ,粉丝 
会 发 布 “是 否 购 买 电影 票 ” 科 “是否 有 观 影 意愿 "的 评论 。 
据 统 计 ， 用 户 发 布 的 微 博 中 大 约 有 3% 的 微 博 含 有 消费 
意图 鸣 。 而 在 电影 评论 领域 含有 显 式 消费 意图 的 比例 其 
至 高 达 18.7%。 与 Eliashberg 等 5 和 Shugan 等 中 的 研究 
一 致 , 本 文选 择 以 消费 者 的 观 影 意愿 为 基础 构建 票房 预 
测 模 型 四。 此 外 ，Asur 等 "已 经 证 明 社交 媒体 中 的 情感 
有 助 于 票房 预测 。 同 时 Du 等 中 提出 不 同 的 情感 倾向 对 
票房 的 贡献 能 力 是 不 同 的 , 并 且 证 明 该 假设 比 Asur 等 的 
假设 能 够 更 好 地 预测 票房 。 因 此 本 文 提出 使 用 微 博 中 的 
消费 意图 、 用 户 评论 的 情感 倾向 来 进行 票房 预测 。 
3.2 ”文本 预 处 理 

由 于 XML 文件 中 存在 很 多 和 评论 无 关 的 信息 ， 
为 了 提高 数据 的 质量 , 通过 对 微 博 评论 进行 分 析 , 采 
用 如 下 方法 进行 评论 的 预 处 理 : 在 Python 中 使 用 正则 
表达 式 re.compile(r(?<=<div>)(.*?)(2?=</div>)，re.S) 获 
得 标签 之 间 的 所 有 微 博 评论 , 并 存 人 MySQL 数据 库 ; 
去 除 评 论 中 噪声 数据 , 包括 网 页 链接 (http:/)，'## 话 题 
#? 和 二 次 转发 符号 “//”。 
3.3 基于 SVM 的 消费 意图 挖掘 

(1) 问题 描述 

消费 意图 是 指 购买 某 个 产品 的 意愿 04。 消费 意图 
识别 是 指 利 用 各 种 技术 对 含有 消费 需求 的 数据 进行 分 
析 ， 从 而 识别 出 用 户 的 消费 意图 。 用 户 倾向 于 在 社交 
媒体 上 隐 式 或 显 式 地 表达 他 们 的 购买 意愿 。 例 如 “ 井 
宝 ， 提 妖 记 票 已 定好 ， 明 天 就 去 看 你 "”。 然 而 ,尽管 有 
些 用 户 的 帖子 提 到 了 和 电影 相关 的 信息 , 但 用 户 并 没 
有 在 帖子 中 明确 表达 他 们 看 电影 的 意图 , 例如 “大 美 
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岩 , 女神 ， 爱 死 你 了 。。。 你 的 电影 我 一 定 会 看 蚊 ”。 因 
此 对 购买 意图 的 挖掘 可 以 看 成 是 一 个 二 分 类 问题 (1 
为 此 , 对 于 给 定 的 电影 名 称 , 首先 要 从 微 博 上 收集 主 
创 人 员 的 微 博 及 其 对 应 的 评论 , 然后 对 这 些 评 论 进行 
分 类 ， 即 显 式 消费 意图 和 隐 式 消费 意图 。 该 部 分 主要 
是 为 了 获得 已 经 购 票 的 用 户 的 数量 。 

(2) 基于 SVM 的 消费 意图 挖掘 

在 机 器 学 习 中 , SVM 是 由 Vapnik 等 3| 入 。 SVM 
可 以 用 于 分 类 和 回归 分 析 。 当 进行 分 类 时 , 主要 利用 
核 函 数 将 线性 不 可 分 的 训练 数据 投射 到 高 维特 征 空 间 
从 而 实现 线性 可 分 , 并 且 适 用 于 小 样本 数据 的 分 类 。 
而 进行 分 类 时 , 重要 的 是 模型 输入 特征 的 选择 , 根据 
对 微 博 评论 数据 的 观察 , 本 文选 择 以 下 两 个 特征 。 

QD 提 及 特征 (MD): 在 微 博 中 ,用 户 使 用 @ 来 提醒 他 们 的 
朋友 来 看 这 条 微 博 。 如 “7 月 16 日 前 饼 侠 ， 约 吗 @ 某 人 ”。 
通过 对 微 博 评论 语 料 的 观察 , 发现 大 部 分 包含 @ 的 评论 包 
含 消费 意图 。 因 此 ， 提 及 特征 可 以 帮助 判断 一 条 微 博 是 否 包 
含 消费 意图 。 如 果 某 条 评论 中 出 现 @, 则 将 M 设 为 “true”。 

@) 触 发 词 特征 (T): 社交 媒体 用 户 经 常 使 用 一 些 特殊 的 
词语 来 表达 他 们 的 购买 意图 ， 如 “已 买 "来 表达 其 消费 意图 。 
本 文 从 评论 文本 中 手工 挑选 出 部 分 词汇 并 将 这 些 词 命名 为 
触发 词 。 如 果 一 条 评论 中 包含 触发 词 ， 将 T 设置 为 “true”。 
最 终 本 文选 择 12 个 词 作为 触发 词 。 
3.4 ”领域 情感 词典 的 构建 

对 于 微 博 评论 文本 , 除了 包含 已 经 购买 的 用 户 评 
论 外 , 还 有 一 部 分 评论 , 虽然 没有 明确 表达 是 否 去 观 
影 , 但 用 户 使 用 各 种 表情 符号 、 人 情感 词 等 表达 对 电影 
的 看 法 , 该 部 分 评论 的 用 户 有 可 能 会 转化 为 最 终 的 观 
影 人 员 , 同时 不 同 的 情感 倾向 对 票房 的 贡献 能 力 是 不 
一 样 的 。 因此, 为 了 量化 一 部 电影 的 情感 倾向 ,本 文 在 
构建 领域 情感 词典 的 基础 上 进行 情感 分 析 。 

情感 词 是 最 好 的 表示 文本 情感 的 特征 之 一 I， 丰 
富 的 情感 词典 有 助 于 提升 情感 倾向 性 判定 效果 。 文 本 
的 情感 倾向 大 多 通过 情感 词语 体现 , 情感 词典 能 否 覆 
盖 全 面 在 一 定 程 度 上 影响 着 情感 分 类 效果 , 故 情感 词 
典 的 构建 是 情感 分 类 研究 的 基础 。 本 文 的 中 文 微 博 情 
感 词典 构成 如 图 2 所 示 : 


中 文 微 博 情 感 词典 


网 络 用 语 
情感 词典 


表情 符号 


情感 词典 


图 2 情感 词典 构成 
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(1) 基础 情感 词典 
选用 《 知 网 》 情 感 分 析 用 词语 集中 的 正 /负面 情感 词 
语 集 ( 中 文 ) 和 正 /负面 评价 词语 集 ( 中 文 ) 并 将 其 中 不 常 
用 或 是 情感 倾向 在 电影 评论 中 有 歧义 或 倾向 不 明显 的 吻 
除 掉 ， 同 时 还 根据 电影 评论 领域 的 特点 对 部 分 情感 词 的 
倾向 进行 修正 , 最 终 得 到 基础 情感 词典 组 成 如 表 1 所 示 : 
表 1 基础 情感 词典 


词语 集 名 称 数量 (个 ) 
正面 情感 词 4 105 
负面 情感 词 4 234 


(2) 网 络 用 语 情 感 词典 

网 络 用 语 包括 两 种 : 一 种 是 新 出 现 的 网 络 新 词 ， 
如 “路 转 粉 ” 二 是 已 经 存在 的 词汇 因 被 赋予 了 新 的 
含义 而 带 有 一 定 的 情感 倾向 。 而 这 些 网 络 用 语 逐 渐 成 
为 用 户 表达 情感 的 主力 军 。 因 此 构建 网 络 用 语 情感 词 
典 显 得 尤为 重要 。 本 文选 用 “网 词 网 ”提供 的 网 络 词汇 
列表 并 通过 赋予 不 同 的 词汇 相应 的 情感 倾向 来 构建 网 
络 用 语 情 感 词典 。 

(3) 表情 符号 情感 词典 

通过 对 微 博 的 评论 观察 ,以 《煎饼 侠 》 中 囊 姗 姗 
的 微 博 评论 为 例 , 在 486 条 微 博 评论 中 有 180 条 评论 
含有 微 博 表情 符号 ,因此 咪 需 构建 一 个 以 微 博 自 带 的 
表情 符号 为 基础 的 表情 符号 词典 来 优化 情感 分 类 。 其 
中 正面 情感 标注 为 “+1”, 负面 标注 为 “~1”, 结合 微 博 
评论 语 料 , 忽略 其 中 有 歧义 的 表情 符号 ,， 并 根据 微 博 
评论 对 表情 符号 进行 极 性 的 调整 ,如 “[ 泪 7 一 般 表示 
负 向 情感 , 但 通过 电影 评论 观察 ,发现 一 般 出 现在 买 
不 到 首 映 票 之 后 , 实际 上 该 条 评论 传达 的 是 对 观 影 的 
积极 倾向 ,本 文 共 收 集 66 个 带 有 明显 情感 倾向 的 表情 
符号 , 其 中 正面 表情 符号 43 个 ,负面 表情 符号 23 个 。 
部 分 如 表 2 所 示 : 


表 2 表情 符号 情感 词典 示例 
情感 符号 表达 含义 被 抓 取 的 表现 形式 。 极 性 
[和] 泪 [ 泪 ] 4 
加 甜 世 爱 你 哆 [ 甜 融 爱 你 哟 ] +1 
Ea 怒 曙 [ 怒 加 ] -1 
(4) 领域 情感 词典 的 构建 
DSO-PMI 


点 互信 息 是 信息 论 中 度量 两 个 随机 变量 间 统 计 依赖 性 
的 一 种 测度 。 在 自然 语言 处 理 中 ， 可 以 用 来 计算 两 个 词汇 
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wordl 和 word2 之 间 的 相似 度 。 其 基本 思想 是 如 果 wordl 和 
word2 在 文本 中 同时 出 现 的 概率 越 大 ， 则 两 者 的 相关 性 越 
高 ， 情 感 倾向 一 致 。 
WwWordl 和 word2 的 点 互信 息 PMI(wordl,word2) 计算 公 
式 如 下 : 
P(wordl & word2) 
P(word1)P(word2) 
其 中 , PCwordl && word2) 表 示 wordl 和 word2 同时 出 现 
的 概率 , P(word1) 和 P(word2) 表 示 每 个 词 单独 出 现 的 概率 。 
在 实际 的 应 用 过 程 中 , 公式 (1) 的 概率 可 以 通过 word1 
和 word2 在 评论 语 料 中 出 现 的 次 数 进行 估计 , 而 出 现 的 次 数 
可 以 通过 使 用 文档 频次 法 获得 。 因 此 公式 (1) 可 以 使 用 如 下 
公式 进行 近似 : 


PMI(word1, word2) = log, ( (1) 


Nxdf(wordl, word2) 
df(wordl) x df (word2) 
其 中 ，N 表示 语料库 中 总 的 词 次 数 ，df(wordD 和 
df(word2) 表示 两 个 词 在 评论 语料库 中 出 现 的 次 数 ， 
df(wordl,word2) 表示 两 个 词 在 语料库 中 共同 出 现 的 次 数 。 
通过 计算 PMI(wordl, word2) 的 值 ， 最 终 根 据 值 所 属 的 
范围 ， 确 定 wordl 和 word2 之 间 的 关联 度 ， 确 定 的 规则 如 下 : 
> 0 两 个 词语 相关 ; 值 越 大 ,相关 性 越 高 
PMI(word1, Word2)4=0 两 个 词语 是 统计 独立 的 ,不 相关 也 不 互 斥 
<0 两 个 词语 不 相关 , 互 斥 


PMI(Cwordl, word2) ~ log,( (2) 


G3) 

为 了 量化 两 个 情感 词 之 间 的 相似 度 , 将 PMI 引入 到 情 
感 分 析 领 域 来 计算 词语 的 情感 倾向 (SO )， 从 而 确定 候选 词 
的 情感 倾向 。 

SO-PMI 的 基本 思想 : 选取 基准 词 集 包含 一 组 讲义 基 
准 词 集 Pwords 和 一 组 贬义 基准 词 集 Nwords 。 分 别 计算 菜 个 
词 与 Pwords 和 Nwords 的 PMI, 根据 二 者 的 PMI 差 值 的 取 
值 确定 其 情感 倾向 ,以 Word 为 例 ，SO-PMI 的 计算 公式 如 下 : 
SO-PMI(word) = > PMI(word, Pword) — 


PwordePwords 


> PMI(word, Nword) 


Nworde Nwords 


Nx df(word,Pword) 
df(word)x df (Pword) (4) 

Nx df(word, Nword) 
df(word)x df (Nword) 


PwordePwords 


~log, 


Nworde Nwords 


通过 比较 站 


PwordePwords 


PMI(word, Pword) 和 


Nworde Nwords 
PMI(word, Nword) 的 大 小 ， 可 以 确定 Word 的 情感 倾向 并 将 
其 加 入 相应 的 情感 词典 。 一 般 将 0 作为 辣 值 ， 根据 与 0 的 
大 小 关系 ,共有 三 种 不 同 的 情况 : 
>0 讲义 词 
SO-PMI(word)1=0 中 性 词 (5) 
<0 贬义 词 


@) 领 域 情感 词典 的 生成 

领域 情感 词典 的 生成 包括 两 个 步骤 : 基准 词 的 选取 ; 使 
用 SO-PMI 判断 候选 词 是 否 是 情感 词 及 其 情感 倾向 。 

1) 基准 词 的 选取 

郭 叶 CO 通过 对 比 10 对 、20 对 、30 对 、40 对 基准 词 对 
情感 倾向 判断 的 准确 率 ， 结 果 发 现 选 取 40 对 基准 词 时 ， 准 
确 率 高 达 81.37%。 本 文 对 115 202 条 微 博 评论 语 料 进 行 词 频 
统计 ， 按照 由 高 到 低 进行 排序 ， 人 工 挑选 出 出 现 频率 高 并 且 
情感 倾向 明显 的 词语 作为 基准 词 ， 其 中 襄 义 基准 词 20 个 ， 
贬义 基准 词 20 个 。 

2) 基于 SO-PMI 的 候选 词 识 别 

对 115 202 条 微 博 评论 , 使 用 候选 词 识 别 算 法 SO-PMI 
构建 领域 情感 词典 ， 最 终 获 得 襄 义 词 732 个 , 贬义 词 507 个 。 
具体 的 算法 流程 如 图 3 所 示 : 


微 博 评 论 
语 料 预 处 理 


特征 选择 
提取 候选 词 


候选 词 
和 基准 词 之 间 
的 SO-PMI 值 


加 入 非 情感 词 词典 


图 3 领域 情感 词典 构建 流程 


3.5 情感 分 类 

(1) 人 研究 假设 及 规则 定义 

本 文 使 用 Du 等 中 提出 的 假设 , 但 对 不 同 的 情感 
倾向 内 容 进行 修正 : 

假设 : 如 果 有 更 多 的 微 博 评论 是 和 票房 增长 相 
关 ， 则 电影 的 票房 会 更 好 。 基 于 这 个 假设 ， 笔 者 将 经 
过 主客 观 分 类 的 微 博 评论 分 为 三 类 ， 具 体 的 分 类 准 
则 如 下 : 

规则 1: 正面 评论 , 包括 强 正 面 评论 和 能 正面 评论 。 

规则 1.1: 强 正面 评论 : 即 表达 “已 经 购 票 ”的 用 户 
评论 。 

例如 : 已 经 提早 买 过 票 啦 ,就 等 上 映 le[ 鼓 学]; 凌晨 就 
不 能 去 了 ， 但 是 已 经 买 了 明天 晚上 的 票 ， 一 定 要 看 美美 的 
你 ! 

规则 1.2: 弱 正 面 评论 : 对 影 
的 情感 。 


、 演 员 等 表达 积极 
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例如 : 大 美 岩 [给 劲 ] 票 房 大 麦 ; 其 实 蛮 欣 赏 大 鹏 的 电影 
上 了 映 会 去 支持 。 

规则 2: 中 性 评论 : 是 指 对 影片 、 演 员 、 情 节 等 表 
达 中 性 情感 。 

例如 : 井柏然 是 相爱 穿梭 前 年 的 男 主 角 啊 。 

规则 3: 负面 评论 : 是 对 影片 、 演 员 等 表达 消极 、 
负面 的 情感 。 

例如 : 炒作 过 头 了 ， 本 来 想 看 都 不 想 去 了 。 

基于 上 述 假设 , 本 文 提 出 用 户 影响 力 特征 (MU )， 
定义 如 下 : 
MIG) = ol x PosCountl + os x PosCount2 + Bx NegCount + yx NeuCount 

(6) 

MIG) 是 第 i 条 微 博 的 影响 力 ，PosCountl 是 强 正 
面 评论 数 ，PosCount2 是 弱 正面 评论 数 ，NegCount 是 
负面 评论 数 ，NeuCount 是 中 性 评论 数 ，ol 、a,、B、 
Y 是 相应 的 权重 , 可 通过 样本 数据 训练 获得 。 

因此 一 个 用 户 的 影响 力 为 : 


Yo) 
MU(G) = 二 (7) 
其 中 ，N 为 该 用 户 所 发 布 的 微 博 数量 。 
为 了 使 用 户 评论 中 的 情感 能 够 同时 更 好 地 用 于 票 
房 预 测 ， 本 文 定义 X, 作为 样本 的 输入 特征 : 


Xn = > MU (8) 


1 

其 中 ，m 是 和 该 电影 相关 的 微 博 用 户 数 , 本 文 定 
义 m=4，, 只 选择 4 位 主创 人 员 的 原因 在 于 王 铮 等 中 
使 用 前 三 位 主演 的 名 气 作 为 票房 的 其 中 一 个 变量 , 其 
对 票房 的 解释 能 力 较 高 ,并 且 发 现 随 着 演员 数量 的 增 
加 ,片酬 的 增加 , 会 存在 挤 出 效应 ， 从 而 使 票房 降低 ， 
因此 本 文选 择 基 于 王 铮 等 中 的 研究 ， 并 结合 百度 百科 
对 一 部 电影 的 演员 的 介绍 规则 , 选择 前 4 位 主演 的 微 
博 评论 , 包括 男 一 、 女 一 、 男 二 和 女 二 。 

(2) 情感 分 类 

由 于 140 字 的 微 博信 息 量 少 , 可 区 分 度 低 ,因此 ， 
在 以 词 为 维度 的 向 量 空间 模型 中 ,呈现 出 特征 稀 足 的 
特点 。 因 此 需要 构建 电影 领域 的 情感 词典 来 降低 稀疏 
性 ， 并 利用 构建 的 情感 词典 进行 情感 分 类 , 具体 算法 
流程 如 下 : 

输入 : 微 博 剩 余 评 论 DD=(di,d,,…,d.,…) ,情感 词典 Dic。 
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输出 : 评论 分 类 结果 ,具体 包括 弱 正 面 评论 个 数 
PosCount2， 中 性 评论 个 数 NeuCount，, 负面 评论 个 数 NegCount。 

(使 用 NLPIR "汉语 分 词 系统 对 Vd (di eDD) 进行 分 词 
并 去 掉 停 用 词 。 

@ 在 游 建 平 2 提 出 的 上 下 文 滑动 算法 基础 上 ， 将 词性 
规则 、 情 感 词典 、 平 滑 算法 相 结合 ， 对 微 博 评论 的 情感 相关 
特征 项 进行 抽取 。 本 文 需要 抽取 的 特征 包括 情感 词 、 程 度 副 
词 、 否 定 词 、 表 情 符号 、 网 络 用 语 。 

@@ 使 用 LIBSVM 进行 分 类 器 的 训练 ， 并 完成 对 评论 文 
本 的 情感 分 类 。 

3.6 基于 BP 神经 网 络 的 票房 预测 

BP 算法 是 一 种 有 监督 的 学 习 算 法 , 是 使 用 反 向 
传播 算法 对 网 络 的 权 值 和 偏差 进行 反复 调整 训练 的 一 
种 多 层 前 馈 神 经 网 络 。BP 神经 网 络 分 为 两 个 过 程 : 信 
号 的 正 向 传播 ; 误差 的 反 向 传播 。 在 BP 神经 网 络 中 ， 
单个 样本 有 mm 个 输入 ,有 na 个 输出 , 在 输入 层 和 输出 
层 之 间 通 常 还 有 若干 个 隐 含 层 。 由 于 输入 层 和 输出 层 
的 节点 个 数 都 是 确定 的 ， 而 隐 含 层 节点 个 数 不 确 定 ， 
根据 经 验 公 式 h=Vm+n+a(a 为 1-10 之 间 的 调节 常 
数 ) 确 定 隐 含 层 的 个 数 。 本 文 使 用 R 语言 中 的 nnet 包 
进行 票房 预测 。nnet 包 提供 了 反 向 传播 算法 并 且 可 以 
自 定义 设置 激活 函数 。 实 现 步骤 如 下 : 

和 输入: 电影 的 正面 评论 ( 强 正 面 评论 和 弱 正 面 评论 )、 负 
面 评论 和 中 性 评论 的 个 数 。 

输出 : 票房 的 预测 值 和 平均 绝对 百分比 误差 (MAPE)。 

| 读 入 神经 网 络 nnet 包 和 MySQL 数据 库 连 接 时 需要 使 
用 的 RODBC 包 ; 

加 通过 定义 odbcConnect 与 数据 库 建 立 连接 ， 利用 
sqlFetch 获得 微 博 评论 情感 分 类 结果 ; 

图 按照 公式 (6) 至 公式 (8) 计 算 获 得 X，; 

全 使 用 splitForTrainingAndTest 划分 测试 集 和 训练 集 ; 

@ 使 用 scale 对 数据 进行 标准 化 ; 
© 
迭 
©@ 


更 用 nnet 命令 ， 参 数 规定 隐 含 层 的 个 数 、 学 习 率 mm ， 


最 大 迭代 次 数 ; 
二 用 predict 进行 预测 ; 
@ 计 算 MAPE。 
4 “实验 设计 与 结果 
4.1 数据 集 


本 文 使 用 的 数据 集 由 两 部 分 组 成 : 票房 数据 和 电 


Dhttp://ictclas.nlpir.org/. 
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影 微 博 评论 文本 。 票 房 数 据 来 自 中 国电 影 票 房 数据 中 
心 , 包括 《 捉 妖 记 》《 同 桌 的 你 》《 前 饼 侠 》 等 10 部 
电影 的 首 映 周 票房 。 微 博 评论 文本 是 通过 网 络 息 虫 软 
件 GooSeeker 在 新 浪 微 博 上 进行 采集 。 获 取 的 评论 文 
本 是 电影 主创 人 员 在 电影 上 映 前 一 周 发 布 的 和 电影 相 
关 的 微 博 及 其 评论 。 最 终 , 共 收 集 到 115 202 条 微 博 评 
论 数据 。 

为 了 证 明 本 文 方法 的 有 效 性 ,首先 指导 用 户 对 语 
料 进行 标注 。 两 个 注释 人 员 对 数据 集中 的 每 一 条 微 博 
评论 标注 是 否 包 含 购买 意图 。 对 前 两 个 注释 人 员 存 在 
争论 的 微 博 , 由 第 三 个 注释 人 员 评 判 其 所 属 的 类 别 。 
消费 意图 标注 集 共 有 3 000 条 评论 文本 , 其 中 2 300 条 
是 训练 集 , 700 条 是 测试 集 。 同 时 为 了 比较 情感 分 类 的 
准确 率 , 每 部 电影 各 选择 2 000 条 评论 进行 人 工 标注 ， 
选择 5 名 志愿 者 分 别 对 20 000 条 微 博 评论 进行 情感 倾 
向 判断 。 最 后 , 对 5 个 志愿 者 的 标注 结果 进行 汇总 ， 以 
每 条 评论 中 情感 倾向 得 票数 最 多 的 为 准 。 消 费 意图 和 
情感 分 类 人 工 标注 结果 如 表 3 所 示 : 


表 3 人工 标注 结果 


影 强 正面 评论 ”能 正面 评论 ”中 性 评论 ”负面 评论 
捉 妖 记 296 1671 0 33 
小 时 代 3 319 1 305 14 362 
何以 答 筑 默 279 1 592 18 111 
小 时 代 4 307 1 295 0 398 
同 桌 的 你 274 1 408 94 224 
后 会 无 期 238 1386 347 29 
匆匆 那 年 315 1 509 9 167 
煎饼 全 519 1 463 0 18 
夏 洛 特 烦恼 406 1 496 81 17 
柜子 花 开 361 1 107 151 381 


4.2 评价 指标 

(1) 分 类 模型 评价 指标 

使 用 准确 率 (Precision)、 召 回 率 (Recal) 和 Fl 作为 
分 类 效果 评估 指标 。 


被 分 类 器 判定 的 正 例 中 真正 的 正 例 


revidiome 
recision 被 分 类 器 判定 的 正 例 (9) 
ee 被 正确 判定 的 正 例 (10) 

总 的 正 例 


201711.01224v1 


chinaXiv 


_ 2x Precision x Recall 


GD 


Precision + Recall 


(2) 票房 预测 模型 评价 指标 

平均 绝对 百分比 误差 (Mean Absolute Percentage 
Error MAPE) 是 通过 计算 神经 网 络 输出 的 预测 值 与 其 
实际 票房 数据 之 间 的 误差 后 , 计算 误差 与 实际 值 的 比 
值 的 绝对 值 。MAPE 越 小 ,代表 预测 效果 越 好 。 


yt 一 Yi (12) 


1 n 
MAPE = 一 >， 
yt 


nt-1 


4.3 ”Baseline 实验 

Asur 等 "不仅 证 实 了 社交 媒体 具有 预测 现实 志 
界 的 能 力 , 还 使 用 线性 回归 模型 并 从 Tweet 中 抽取 
tweet-rate 和 Pnratio 特征 成 功 地 预测 了 首 映 周 票房 。 
在 本 文 的 数据 集 上 利用 Asur 等 的 方法 进行 票房 预测 ， 
并 作为 Baseline 实验 。 
4.4 实验 结果 与 分 析 

(1) 消费 意图 挖掘 实验 结果 分 析 

为 了 验证 本 文 进 行 消费 者 意图 挖掘 时 选取 的 两 类 
特征 的 有 效 性 , 采用 逐个 增加 特征 的 方法 来 验证 。 首 
先 只 使 用 提 及 特征 (M) 作 为 分 类 特征 ,然后 增加 触发 
词 特征 (T), 最 终 的 实验 结果 如 表 4 所 示 : 

表 4 特征 选择 的 实验 结果 
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(3) 情感 分 类 标准 对 票房 的 影响 

传统 的 情感 分 类 仅仅 将 对 电影 情节 等 具有 正面 
评价 的 评论 归 入 正面 评论 , 但 忽略 了 在 现 有 的 预 售 
制 环境 下 用 户 会 提前 订 票 这 一 事实 ,而 订 票 的 这 一 
类 用 户 和 仪 仅 对 电影 表达 情感 倾向 的 用 户 相 比 对 票 
房 的 贡献 能 力 更 大 。 因 此 使 用 线性 回归 模型 对 首 映 
周 票 房 进行 回归 预测 , 将 本 文 的 情感 分 类 准则 获取 
的 特征 作为 输入 并 和 Asur 等 (J1 的 情感 分 类 标准 相 
比 ， 如 表 6 所 示 : 

表 6 不 同 的 特征 和 票房 的 相关 系数 


特征 相关 系数 


Asur 等 的 情感 分 类 准则 0.2906481 
本 文 的 情感 分 类 准则 0.3194738 


从 表 6 可 以 看 出 , 使 用 本 文 修正 后 的 情感 分 类 准 
则 获得 的 特征 和 票房 的 相关 度 更 高 。 同 时 为 了 验证 使 
用 神经 网 络 的 预测 效果 , 将 上 述 特征 作为 神经 网 络 的 
样本 输入 ， 随机 选择 两 部 电影 作为 训练 集 , 剩余 的 8 
部 电影 作为 测试 集 , 使 用 MAPE 作为 评价 指标 。 具 体 
结果 如 表 7 所 示 : 
表 7 不 同 特征 的 样本 输入 的 平均 MAPE 值 


情感 分 类 MAPE 


本 文 的 情感 分 类 准则 0.1978201 
特征 Precision Recall Fl 传统 的 情感 分 类 准则 0.2013058 
提 及 特征 (M) 0.45 0.67 0.56 人 、 本 
提 及 特征 (MJ)+ 触 发 词 特征 (T) 0.73 0.81 0.77 通过 表 7 发 现 , 使 用 本 文 提出 的 分 类 准则 计算 的 


和 人 工 标注 的 强 正 面 评论 相 比 , 表 4 的 数据 表明 
通过 向 分 类 器 中 增加 特征 可 以 改善 消费 意图 的 分 类 结 
果 。 同 时 也 证 实 了 选择 的 两 个 特征 可 以 有 效 地 从 评论 
文本 中 区 分 出 显 式 消费 意图 。 此 外 从 数据 中 可 以 看 出 ， 
触发 词 特征 对 分 类 需 效 果 的 改进 很 大 。 

(2) 情感 分 类 实验 结果 分 析 

以 电影 《 捉 妖 记 》《 前 饼 侠 》 和 《小 时 代 4》 为 
例 说 明 使 用 本 文 构建 的 领域 情感 词典 情感 分 类 的 准确 
率 , 从 表 5 可 以 看 出 ,以 人 工 标 注 作为 基准 , 使 用 本 文 
构建 的 领域 情感 词典 具有 较 高 的 情感 分 类 准确 率 。 

表 5 情感 分 类 实验 结果 


Be 提 妖 记 。 ”煎饼 侠 。 ”小 时 代 4 


Precison 0.8973 0.9104 0.8274 


Xn 作为 样本 特征 输入 进行 票房 预测 的 结果 降低 了 
1.73 个 平均 绝对 百分比 误差 。 为 了 验证 Xu 中 不 同 的 
特征 对 模型 的 解释 能 力 , 依次 使 用 Tweet、Pnratio、 强 
正面 评论 和 弱 正 面 评论 进行 票房 预测 。 图 4 说 明 消 费 
意图 可 以 更 好 用 于 改善 票房 预测 ， 并 且 优 于 评论 文本 
中 的 情感 倾向 对 票房 的 预测 能 力 。 


Tweet-rate Pnratio  ” 强 正 面 评 论 弱 正面 评论 


图 4 首 映 周 票 房 预 测 
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(4) 不 同 预测 模型 比较 
现 有 的 票房 预测 模型 一 般 使 用 神经 网 络 、SVM 或 
LR， 而 本 文 使 用 神经 网 络 进行 预测 ， 并 对 比 了 不 同 模 
型 的 预测 效果 。 表 8 中 的 数据 表明 , 使 用 BP 神经 网 络 
的 效果 要 明显 优 于 其 他 两 种 方法 。 
表 8 不同 预测 效果 的 模型 比较 


预测 模型 MAPE 
BP 神经 网 络 0.1912093 
SVM 0.2173051 
LR 0.2640637 


相 比 于 线性 回归 模型 ， 非 线性 回归 模型 有 更 好 的 
预测 效果 。 可 能 是 由 于 影响 票房 的 因素 较 多 ,而 线性 
回归 模型 的 稳定 性 较 差 。 


计 


5 结 语 
本 文 从 微 博 评论 中 识别 出 显 式 消费 意图 ， 在 对 传 


统 的 文本 情感 分 类 进行 修正 的 基础 上 , 定义 了 基于 微 
博 情感 分 析 的 用 户 影响 力 MU , 并 且 对 不 同 的 情感 倾 
向 赋予 不 同 的 权重 。 为 了 更 好 地 实现 情感 分 类 效果 ， 
构建 了 基于 电影 领域 的 情感 词典 , 并 且 证 实 该 词典 能 
够 更 好 地 用 于 情感 分 类 。 最 后 对 比 了 不 同 的 预测 模型 
的 票房 预测 效果 。 

但 本 文 仍 存在 以 下 不 足 : 仅仅 对 首 映 周 的 票房 进 
行 预测 , 没有 建立 一 个 能 够 实现 对 后 续 周 票房 进行 预 
测 的 动态 模型 ; 由 于 语 料 不 充分 , 构建 的 中 文 微 博 情 
感 词典 ， 可 能 无 法 在 所 有 的 电影 微 博 评论 中 表现 出 较 
好 的 分 类 效果 。 
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Wang Xiaoyun Yuan Yuan ShiLingling 
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Abstract: [Objective] This study aims to solve the problems of the existing pre-release box office prediction models 
due to data constraints and other factors. [Methods] We first retrieved microblog comments, and then used SVM to 
identify explicit consumer intention, namely strong positive comments. Second, we modified the traditional sentiment 
classification Schemes to build a Chinese microblog sentiment dictionary based on HowNet. Finally, we defined a new 
user influence feature and used the BP neural network to predict box office. [Results] The proposed model could 
forecast the opening box office more accuately. [Limitations] Due to inadequate corpus, the sentiment dictionary may 
not work well for all microblog movie comments. A dynamic forecasting model was not established between the 
pre-release and post-release period. [Conclusions] The proposed model can effectively predict opening box office. 


Keywords: Sentiment dictionary Sentiment classification Opening weekend box office prediction Neural network 
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